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摘要 : [目的 /意义 ] 针 对 当前 知识 发 现 服务 中 存在 的 个 性 化 程度 不 高 和 推荐 效果 不 佳 等 问题 ,提出 一 种 基于 
用 户 兴趣 度量 和 内 容 分 析 的 推荐 算法 。[ 方 法 /过 程 ] 文 章 通 过 特征 词 分 布 .LDA 主题 分 布 . 引 文 结构 网 络 三 个 维 
度 构建 学 术 资 源 模型 ,并 通过 对 用 户 行为 的 度量 ,计算 用 户 对 其 浏览 学 术 资 源 的 兴趣 度 ,结合 学 术 资 源 模 型 构建 用 
户 兴趣 模型 。 将 用 户 兴 趣 模型 与 学 术 资源 模型 匹配 ,计算 其 相似 度 , 得 到 用 户 对 每 条 学 术 资 源 的 兴趣 值 , 最 后 将 兴趣 
值 最 高 的 TOP 学术 资 源 推 荐 给 用 户 。 [结果 /结论 ] 通过 实验 检验 算法 的 有 效 性 和 推荐 准确 率 ,结果 显示 ,本 文 从 实 
时 动态 度量 兴趣 的 角度 ,提出 的 推荐 算法 能 较 好 地 预测 用 户 兴趣 ,推荐 效果 显著 ,为 实现 发 现 服务 精准 推荐 提供 思路 。 
关键 词 : 用 户 兴趣 ”内 容 分 析 发现 服务 ”精准 推荐 


5 分 类 号 : G251 
:10. J. issn. 一 .03. 
C9 DOI:10.13266/j.i 0252 -3116.2019.03.003 


我 们 已 经 由 数字 时 代 走 向 数据 驱动 时 代 , 数 据 既 
是 一 种 资产 ,又 是 一 种 资源 。 面 对 指数 级 增长 .类 型 丰 


容 模型 ,通过 相关 算法 为 用 户 进行 精准 的 知识 推荐 。 
从 而 利用 精准 推荐 技术 来 改变 用 户 与 知识 发 现 系统 的 


富 的 海量 数据 资源 ,如 何 对 其 进行 有 效 利 用 ,以 实现 面 
隆 用 户 的 知识 服务 创新 成 为 当下 研究 重点 。 知 识 发 现 
服 努 作为 知识 服务 的 重要 组 成 部 分 ,是 把 资源 和 用 户 
联 杂 起 来 的 重要 环节 。 其 中 ,如 何 准确 把 握 用 户 兴趣 
偏 迎 ,预测 用 户 需 求 , 发现 用 户 所 需 知识 ,并 将 其 主动 
挫 尖 给 用 户 成 为 提升 知识 发 现 服务 能 力 的 突破 点 。 然 
而 @ 自 前 知识 发 现 系统 存在 着 灵活 性 不 足 .推荐 结果 不 


交互 模式 ,协同 系统 精准 推荐 服务 方式 ,为 用 户 提供 精 
准 的 推荐 服务 。 


1 相关 研究 


自 2009 年 网 络 资源 发 现 系 统 Summon 出 现 后 , 依 
托 发 现 系统 的 知识 发 现 服务 已 经 发 展 了 近 十 年 ,这 期 
间 对 知识 发 现 服务 的 研究 主要 集中 在 发 现 服务 概念 、 


准 租 个 性 化 服务 程度 不 高 等 问题 。 同 时 ,用 户 的 使 用 
环 蚁 和 知识 服务 环境 存在 一 定 的 融合 鸿沟 ,融和 用户 
环境 的 主动 资源 发 现 服务 还 有 待 加强。 在 数据 驱动 的 
大 计算 时 代 ， 精 准 服务 "是 各 行 各 业 的 发 展 方向 , 数 
字 图 书馆 知识 发 现 服务 的 发 展 思路 也 与 之 契合 。 精 准 
推荐 是 提高 知识 发 现 服务 质量 的 重要 手段 ,在 知识 发 
现 系统 中 融入 精准 推荐 模式 ,通过 分 析 用 户 的 行为 判 
用 户 兴 趣 ,聚合 关联 资源 并 充分 利用 新 的 技术 手段 
用 户 提 供 知 识 服 务 ” ,是 发 挥发 现 系统 在 数据 资源 
面 的 优势 ,满足 用 户 个 性 化 精准 化 和 知识 化 需求 的 
要 手段 。 本 文 在 分 析 发 现 系统 用 户 行为 集合 的 基础 
,识别 用 户 动态 兴趣 ,构建 出 用 户 兴趣 模型 和 资源 内 


Fr 加 过 过 到 


功能 分 析 发 现 服务 系统 对 比 以 及 发 现 服务 的 应 用 上 。 
对 发 现 服 务 理论 层面 和 功能 应 用 层面 的 研究 体现 出 学 
界 和 业界 对 提升 知识 发 现 服务 质量 的 期 望 ,但 从 精准 
推荐 角度 对 发 现 服务 进行 研究 的 较 少 。 

伴随 着 个 性 化 成 为 知识 服务 的 潮流 ,知识 发 现 系 
统 有 必要 为 用 户 提供 精准 推荐 来 提升 其 服务 质量 。 精 
准 推荐 是 发 现 服务 的 关键 一 步 ,是 用 户 对 发 现 系统 所 
提供 服务 的 最 深入 感受 。 国 内 外 对 推荐 服务 的 研究 是 
从 精准 推荐 的 重要 性 和 推荐 算法 两 个 方面 展开 。2004 
年 问世 的 Google Scholar 基于 元 数据 仓储 的 发 现 服务 ， 
在 功能 上 支持 相关 文章 推荐 ,引起 热烈 反响 ” ,国内 外 
学 者 相继 投入 到 利用 个 性 化 推荐 提升 知识 服务 质量 的 
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人 研究 中 。S. Q. Yang 和 下 . Wagner' | 认为 发 现 系统 应 
具备 推荐 相关 资源 的 服务 功能 ,贯彻 服务 到 人 的 理念 
为 用 户 进 行 主题 推送 。 在 评价 知识 发 现 系统 EDS 和 
Summon 时 ,美国 林 奇 保 大 学 (Lynchburg College ) 图 书 
人 馆 外 综合 考虑 了 影响 发 现 系统 性 能 和 质量 的 各 种 因 
素 , 将 相似 检索 结果 推荐 (more like this) 列 为 其 重要 指 
标 。 秦 红 "" 认 为 数字 图 书馆 的 资源 发 现 系统 应 该 具备 
个 性 化 发 现 和 自动 化 推荐 等 特征 ,在 面向 用 户 交互 情 
境 时 为 用 户 精准 推送 所 需 解决 问题 的 知识 。 张 钧 外 以 
用 户 的 基本 信息 ,行为 信息 等 构建 出 用 户 画 像 ,在 此 基 
础 上 预测 用 户 的 需求 偏好 及 潜在 知识 需求 ,以 此 实现 
知识 发 现 的 个 性 化 推荐 匹配 。 如 果 说 知识 发 现 服务 为 
用 户 发 现 了 新 知识 和 知识 之 间 的 隐 性 关联 ,那么 精准 
推送 服务 则 是 为 用 户 利用 知识 提供 了 一 个 专业 化 的 获 
取 苇 应 用 途径 。 通 过 精准 推荐 可 以 实现 发 现 系统 服务 
租用 户 的 双赢 ,精准 推荐 是 知识 发 现 系 统 不 可 或 缺 的 
下 镭 分 ,也 是 用 户 获得 优质 服务 体验 的 途径 。 

准 推荐 服务 需要 借助 优质 的 推荐 算法 来 实现 ， 


和 里 于 用 户 评分 算 阵 的 协同 过 滤 推 荐 算法 。 基 于 内 容 
的 括 荐 算法 是 通过 对 学 术 资源 的 内 容 特征 进行 提取 ， 
将 两 容 相似 的 资源 推荐 给 用 户 ,推荐 结果 清晰 直观 。 
PSGWan 等 "使 用 内 容 推荐 的 方法 ,通过 合并 元 数据 ， 
如 标题 .关键 词 .摘要 和 引文 来 加 强 科学 文献 的 语义 信 
记 生 用 TFT-IDF 算法 得 到 主题 词 权 重 向 量 ,以 此 为 基 
础 移 建 用 户 兴趣 模型 ,提高 推荐 的 可 理解 性 。 但 是 ,F. 
Ricd 等 ”指出 基于 内 容 的 推荐 方法 只 考虑 了 资源 的 
内 铬 特征 ,关注 特征 内 容 的 意义 性 ,结构 性 和 易 抽 取 
性 ,没有 充分 考虑 到 用 户 的 兴趣 ,没有 完全 达到 个 性 化 
的 目标 。 协 同 过 滤 推荐 算法 是 通过 用 户 行为 数据 和 兴 
趣 进行 聚 类 实现 ,其 基本 原则 是 以 相同 的 兴趣 到 集 用 
户 ,用 户 - 项 目 评分 相似 的 用 户 被 认为 具有 相同 的 兴 
趣 。 当 “邻居 "用 户 浏览 过 某 一 项 目 而 该 用 户 没有 浏 
览 过 时 , 则 将 该 项 目 推荐 给 该 用 户 。 基 于 协同 过 滤 的 
推荐 策略 需要 借助 用 户 评分 信息 来 实现 ,在 电子 商务 等 
领域 推荐 效果 较 好 ,应 用 比较 广泛 。 然 而 协同 过 滤 算法 
最 严 手 的 问题 是 稀疏 性 和 冷 启动 , 即 当 一 个 系统 的 用 户 
评分 数据 或 涉及 信息 量 较 少时 ,推荐 效果 会 大 打折 扣 。 
第 一 个 用 户 如 何 发 现 新 物品 , 亦 是 有 待 解决 的 问题 ,而 
基于 协同 过 滤 的 推荐 算法 无 法 针对 新 用 户 和 新 项 目 进 
行 精准 推荐 ,无 法 有 效 满足 用 户 个 性 化 需求 。 尤 其 是 在 
数字 图 书馆 领域 ,用 户主 动 性 相 较 于 电子 商务 领域 较 
差 , 当 用 户 与 数字 图 书馆 交互 的 驱动 力 不 足 时 ,协同 过 
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滤 算 法 的 稀 玻 性 和 冷 启 动 弊端 更 是 被 放大 。 

随 着 数据 孤岛 、 信 息 过 载 、 信 息 迷航 等 问题 的 凸 
显 ,传统 推荐 系统 及 其 算法 的 顽疾 尚未 被 解决 ,导致 用 
户 满意 度 降 低 ,甚至 出 现 用 户 流失 的 现象 ,制约 了 推荐 
服务 的 进一步 推广 和 应 用 。 传 统 推荐 算法 无 法 与 用 户 
兴趣 和 偏好 变化 的 速度 保持 一 致 ,对 动态 捕获 用 户 洪 
在 兴趣 的 推荐 算法 的 研究 就 显得 尤为 重要 。 因 此 , 信 
息 服 务 提供 商 要 充分 考虑 用 户 的 动态 兴趣 ,基于 用 户 
兴趣 度量 和 内 容 分 析 来 满足 用 户 的 动态 知识 需求 ,为 
用 户 提供 更 加 精准 的 知识 发 现 服 务 。 鉴 于 此 ,本 文 将 
以 精准 推荐 为 目标 ,结合 已 有 算法 ,基于 知识 发 现 系统 
海量 资源 数据 和 用 户 数 据 的 优势 ,针对 当前 推荐 存在 
的 冷 启动 问题 和 用 户 兴趣 转移 问题 开展 相应 的 研究 工 
作 , 系 统 地 描述 用 户 浏览 学 术 资 源 时 的 隐 式 兴趣 ,识别 
出 用 户 当 前 的 兴趣 状态 ,并 提出 具有 一 定 创新 性 的 基 
于 用 户 兴趣 模型 的 推荐 算法 。 


精准 推荐 的 关键 在 于 准确 把 握 用 户 需求 、 兴 趣 或 
者 偏好 ,深度 挖掘 资源 内 容 特征 ,建立 起 用 户 与 资源 之 
间 的 联系 ,提供 个 性 化 知识 推荐 服务 。 因 此 ,在 精确 推 
荐 中 ,首先 要 建立 学 术 资 源 模型 ,在 此 基础 上 与 用 户 兴 
趣 值 相 结合 ,建立 用 户 兴趣 模型 ,其 次 是 如 何 使 用 用 户 
兴趣 模型 进行 精确 推荐 ”。 学 术 资 源 建 模 主要 是 对 
文本 特征 进行 提取 ,特征 词 .主题 词 .引文 等 是 学 术 资源 
的 主要 文本 特征 ,通过 提取 学 术 资 源 的 特征 词 分 布 . 主 
题词 分 布 .引文 结构 网 络 ,从 而 构建 学 术 资 源 模型 ,本 文 
定义 Mu 表示 学 术 资 源 模型 ,K, 表示 学 术 资 源 的 特征 词 
分 布 ,T 表示 学 术 资源 的 主题 分 布 ,C 表示 学 术 资 源 引 
文 , 则 学 术 资 源 模型 表示 为 Mi = |K,,T, ,C1|。 
2.1 特征 词 分 布 

定义 文档 特征 词 集合 K = 1Ku ,Ko ,… ,Ku ,dq 表 
示 一 个 学 术 文本 ,文本 特征 词 提取 常用 的 方法 是 TF- 
IDF 算法 , 即 计 算 文 档 中 词语 的 TF-IDF 值 ,TF-IDF 值 
越 大 , 则 可 作为 文档 的 特征 词 。 然 而 ,传统 的 TF -IDF 
算法 无 法 把 握 词语 在 文本 集合 中 的 分 布 比 例 量 上 的 差 
异 , 这 些 差 异 正 是 表达 文本 内 容 的 重要 因素 之 一 。 
此 ,在 TF-IDF 的 基础 上 引入 信息 增益 的 概念 ,改进 传 
统 的 TF-IDF 算法 ,特征 词 K, 的 权重 Wi 的 计算 如 公式 
(1) 所 示 ": 

TF xlog (N+n,+0.01) xIC， 


A Sis xlog(N =n,+0.01) xIG,)’ 
公式 (1) 


Wo = 


丁 梦 晓 ， 
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其 中 ,TF 表示 第 i 个 特征 词 在 学 术 文 档 d 中 出 现 
的 频率 ,N 表示 学 术 文 档 总 数 ,n, 表示 包含 特征 词 i 的 

而 公式 (1) 中 的 IG, 为 信息 增益 ,表示 词语 的 信息 
量 , 计 算 如 公式 (2) 所 示 : 

IG,=H(d) ~- H(dli) 公式 (2) 

其 中 H(d) = (P(i) xlog,P(i)),H(dli) = 
— YF(P(dli) xlog,(P(dli))), PGi) = |wf(i)1/5 1wf 
(i) 1 公式 (3) 

1wf(i) 1 表示 文档 d 中 所 有 词 的 词 频 之 和 。 

则 向 量 Ko = (Ka, Wa), (Ky, We)，…， (K,,, 
Wi ) 1 称 为 学 术 资 源 的 特征 词 分 布 。 
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2 主题 分 布 

定义 主题 分 布 了 = {Ts ,Tw ,…,T,,| ,d 为 一 条 学 
书 资 源 ,Tu 表示 文档 二 的 主题 分 布 概率 ,学 术 资源 的 
亲王 分 布 采用 LDA 算法 得 到 文档 的 主题 和 特征 词 的 
联 傅 分 布 概率 p(w1d) =p(wlt) *p(t1d) ,利用 Gibbs 
苛 料 方法 求解 LDA 模型 的 后 验 参数 P(Tu1d) 表示 该 
学 梓 资 源 4 属于 主题 1, 的 后 验 概率 ", 则 向 量 Tu = 
14) ,P(To1d) ,…,P(T,,1d) | 称 为 学 术 资 源 的 
LD 主题 分 布 。 

2.3" 引文 结构 

一 定义 C, 表示 学 术 资 源 的 引文 , 则 学 术 资 源 的 引文 
用 Cu = | Cu ,Co ,Ce，…，,Cul。 科技 文献 之 间 的 
相 鲍 引证 关系 隐 含 了 文献 间 的 相似 关系 ,通过 引文 关 
联 三 以 找到 一 系列 内 容 相关 的 文献 ,从 而 服务 于 推荐 
系 绽 '” 。 引 文 关联 的 建立 可 以 根据 科技 文献 科学 的 
引证 关系 ,运用 图 论 理论 构造 引文 图 (citation graph ) ， 
一 般 以 图 G = (V,E) 建 模 ,顶点 集 V 为 信息 对 象 集 
合 ,图 上 的 任意 点 由 eV 代表 一 篇 引文 。 边 集 E 表示 
顶点 之 间 的 关系 ,如 果 引 文 出 引用 了 引文 可, 则 用 边 
(di,dj) s 卫 来 表示 这 个 引用 关系 ( 见 图 1) 。 运 用 图 论 
理论 的 方法 挖掘 隐 含 引文 结构 图 中 的 顶点 间 的 关系 ， 
利用 图 的 拓扑 结构 信息 计算 引文 结构 相似 度 。 


由 一 一 一 上 一 
2 PR d Se 
光 全 er ee 
册 
ee 
由 一 
4 人 


图 1 引文 结构 图 


3 用户 兴 趣 度量 

日 户 的 兴趣 偏好 是 推荐 系统 进行 资源 推荐 的 主要 
依据 ,用 户 兴 趣 度量 的 准确 性 直接 影响 知识 发 现 服务 
精准 推荐 的 质量 。 刘 洪 伟 等 ”1 通过 量化 用 户 的 动态 
隐 性 兴趣 ,为 电子 商务 领域 的 个 性 化 推荐 服务 提供 帮 
助 。 曾 子 明 等 中 从 用 户 体验 的 视角 判别 用 户 兴 趣 的 
动态 变化 ,在 数字 图 书馆 领域 进行 知识 推荐 服务 。 从 
相关 研究 中 可 以 发 现 准确 度量 用 户 兴趣 能 够 有 效 提高 
知识 发 现 服务 的 推荐 质量 ,产生 更 加 精准 的 推荐 效果 。 
针对 用 户 的 兴趣 分 析 与 描述 是 知识 发 现 服务 实现 精准 
推荐 的 基础 ,可 通过 建立 用 户 兴趣 模型 来 实现 对 用 户 
兴趣 的 描述 。 用 户 兴趣 模型 描述 了 用 户 对 资源 信息 的 
兴趣 偏好 ,通过 对 用 户 兴 趣 的 分 析 能 够 综合 反映 用 户 
在 一 定时 期 内 对 资源 信息 的 需求 程度 。 

3.1 行为 度量 

用 户 兴趣 可 分 为 显 性 兴趣 和 隐 性 兴趣 两 种 , 显 性 
兴趣 是 指 用 户 通过 主动 的 方式 提供 本 人 对 知识 需求 的 
兴趣 倾向 ,主要 来 源 于 用 户 进行 正常 注册 时 填写 的 个 
人 信息 所 反映 出 的 兴趣 偏好 ; 隐 性 兴趣 指 用 户 使 用 系 
统 时 产生 的 各 种 行为 背后 所 隐 含 的 兴趣 偏好 。 因 为 显 
性 兴趣 通常 比较 稳定 , 且 用 户 参与 主动 性 较 差 ,具有 不 
准确 性 ,不 完全 性 和 主观 性 等 特点 ,无 法 反映 用 户 的 动 
态 兴 趣 。 而 用 户 的 隐 性 兴趣 在 数据 采集 过 程 中 不 需要 
日 户 的 显 式 参 与 ,只 需 在 用 户 产生 行为 的 同时 记录 数 
据 即 可 ,不 影响 用 户 浏览 ,因此 本 文采 用 隐 性 兴趣 来 动 
态 地 度量 用 户 兴趣 。 当 用 户 在 浏览 时 ,系统 自动 跟踪 
并 记录 服务 器 端的 用 户 行为 数据 ,基于 行为 数据 计算 
出 用 户 对 页 面 内 容 的 兴趣 度 , 从 而 获取 用 户 感 兴趣 的 
主题 和 内 容 。 通 过 对 用 户 行为 数据 的 挖掘 ,得 到 的 用 
户 兴 趣 更 加 客观 准确 。 

用 户 隐 性 兴趣 的 度量 主要 基于 用 户 浏览 行为 ,R. 
Krishnamoorthy'" 认为 用 户 兴 趣 的 度量 是 基于 用 户 浏 
览 行为 的 组 合 ,并 将 浏览 行为 分 为 验证 行为 和 致 动 行 
为 两 类 。 验 证 行为 指 可 以 用 来 判断 用 户 兴 趣 有 无 的 行 
为 ,如 用 户 保存 页 面 .打印 页 面 和 访问 同一 页 面 的 次 数 
等 ,这 些 行为 展现 出 用 户 是 否 对 浏览 主题 或 者 页 面 感 
兴趣 ,可 以 依 此 进行 用 户 行为 数据 采集 以 判断 用 户 兴 
趣 程度 ; 致 动 行为 是 验证 行为 的 下 一 阶段 , 指 可 以 判断 
出 用 户 兴 趣 程度 的 行为 ,如 用 户 在 页 面 上 的 浏览 时 间 、 
鼠标 活动 及 键盘 活动 ”等 。L. Zheng 等 “重点 对 用 
户 浏览 时 间 与 用 户 兴 趣 之 间 的 关联 关系 进行 综合 4 
析 ,提出 了 通过 用 户 浏览 时 间 计算 主题 兴趣 度 的 方法 ， 
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并 证 实 该 算法 对 计算 用 户 兴趣 合理 准确 ,可 有 效用 于 
个 性 化 推荐 。 浏 览 时 长 是 用 户 对 浏览 内 容 感 兴趣 程度 
在 行为 上 的 重要 表现 ,用 户 的 浏览 时 间 越 长 ,用 户 对 页 
面 内 容 的 兴趣 度 就 越 高 。 当 用 户 对 打开 页 面 及 其 内 容 
感 兴趣 或 者 认为 其 有 价值 ,用 户 会 花费 较 长 时 间 浏 览 
页 面 。 如 果 用 户 对 于 浏览 的 内 容 不 感 兴 趣 , 则 用 户 会 
快速 关闭 页 面 ,点击 下 一 个 页 面 ,重新 寻找 感 兴趣 的 内 
容 。 用 户 浏 览 时 间 的 影响 因素 主要 有 '" ;用户 对 内 
容 的 关注 度 。 用 户 对 内 容 或 主题 的 关注 度 越 高 ,浏览 
时 间 越 长 。@) 页 面 内 容量 。 页 面 的 信息 容量 越 大 ,用 
户 花 费 在 页 面 上 的 时 间 可 能 就 越 长 。@ 用 户 理解 能 


有 下 载 收藏 ,分享 等 交互 行为 ,认为 用 户 对 学 术 文档 i 
的 兴趣 增加 , 则 通过 公式 (1) 计 算得 来 的 兴趣 度 UI Inter- 
est 增加 5,5 是 调节 参数 ,本 文 设置 其 值 为 1。 
3.2 ”用户 兴趣 模型 

在 学 术 资 源 模型 的 基础 上 ,构建 用 户 兴趣 模型 , 定 
义 K, 为 用 户 兴 趣 的 特征 词 向 量 ,T, 表示 用 户 偏 好 主 
题 分 布 ,C, 表示 浏览 文献 的 引文 分 布 , 则 用 户 兴 趣 模 
型 可 表示 为 M, = | K,,T,,C,|。 
3.2.1 特征 词 偏好 知识 发 现 系统 中 一 项 学 术 资源 
往往 含有 多 个 特征 词 ,特征 词 可 以 对 该 资源 内 容 进行 
简要 概括 和 描述 。 令 | d ,d ,qd ,…,di} 表 示 某 用 户 在 


力 。 用 户 理解 能 力 体现 在 当 两 个 用 户 对 同一 个 页 面 内 
容 关注 度 一 样 时 ,用 户 理解 能 力 越 强 , 浏 览 所 花费 的 时 
间 就 越 短 , 因 此 应 通过 用 户 纵向 对 比 度量 用 户 对 页 面 
的 溃 趣 度 。 由 于 用 户 间 个 体 差 异 的 存在 ,将 用 户 的 浏 
蜂 络 对 时 间作 为 用 户 对 某 个 页 面 兴 趣 度 的 测量 依据 有 
尖 仿 颇 , 应 当 以 同一 用 户 浏览 不 同 页 面 的 相对 时 间 的 
民生 ,同时 考虑 不 同 页 面 信息 量 的 绝对 比值 作为 衡量 
用 六 兴趣 度 的 基准 。 
CD 另外 考虑 到 用 户 学 习 兴 趣 转 移 的 情况 ,以 及 为 了 
友 沁 用 户 近 期 的 学 习 进 度 和 兴趣 ,要 选取 用 户 一 段 时 
池内 浏览 的 学 术 文档 以 及 其 他 交互 行为 进行 度量 。 
除 也 浏览 时 长 和 页 面 信息 量 两 个 度量 指标 ,用 户 在 浏 
览 学 术 文档 过 程 中 ,如 果 用 户 对 某 个 学 术 资源 特别 感 
兴起 或 者 某 个 学 术 资 源 对 用 户 特别 有 价值 ,用 户 就 会 
进 全 步 产生 交互 行为 ,如 下 载 ,收藏 .分享 等 行为 ,而 这 
些 窗 互 行为 更 加 能 体现 用 户 的 隐 式 兴趣 ,因此 在 度量 
兴 丘 时 这 些 交互 行为 的 权重 应 更 高 。 基 于 以 上 考虑 ， 
得 到 用 户 对 学 术 文档 的 兴趣 度 计算 如 公式 (4) 所 示 : 
UL Itimel * Dicontent 公式 (4) 


UI Interest = ~— 
2 (UL ltimel * Dicontent ) 


ji 


if ltimel < Tmin ULI Interest =0 


else | 
if download/collect/ share 
Ul,Interest = Ul,Interest +6 
| 
式 中 UL 1time | 表示 用 户 浏览 学 术 文 档 的 有 效 时 间 ， 
Dicontent 表示 学 术 文 档 的 内 容量 ,可 以 用 学 术 文档 的 字 
节 多 少 表示 。T,;, 是 一 个 很 小 的 值 , 旨 在 防止 误 点 击 ,如 
有 果 用 户 浏览 学 术 文档 i 的 时 间 小 于 Ti;;, , 则 认为 是 误 点 
击 ,UIInterest =0; 如 果 大 于 等 于 T,,, ,将 通过 公式 (1) 计 
算 用 户 对 i 学 术 文 档 的 兴趣 度 。 如 果 用 户 对 学 术 文档 还 


段 时 间 了 T 内 浏览 的 所 有 学 术 资 源 的 集合 ,通过 分 词 
工具 和 语料库 ,提取 用 户 浏览 的 学 术 文档 的 特征 词 集 
合 K = |Ku. Ko ,Kuw|, 则 该 用 户 的 特征 词 偏好 可 
个 向 量 K, = | (Ku Wu ) (Ko We), (Ko, Wu )， 
(Ku Wu) 描述 。 其 中 ,Ki 表示 第 i 个 偏好 特征 
词 ,W 为 特征 词 ,的 权重 。 文 本 的 特征 词 权 重 W, 的 
计算 直接 采用 上 文学 术 资 源 建 模 中 TF-IDF + IC 算法 
的 计算 结果 。 则 有 : 

KK =Ul,Interest * K, 公式 (5) 
其 中 ,K, 则 是 学 术 资 源 的 特征 词 分 布 ,ULInterest 
表示 用 户 对 第 i 个 特征 词 的 兴趣 度 ,K, "表示 用 户 浏 览 
的 学 术 资 源 新 的 特征 词 向 量 。 
3.2.2 主题 偏好 ”用户 在 一 段 时 间 了 内 浏览 的 某 种 学 
术 资 源 的 集合 为 1d ,d ,ds,… ,di| ,用 户 的 LDA 主题 偏 
好 可 用 一 个 N 维 向 量 T, = (Tu ,To ,Ta ,…,T, ) 描 述 。 


T, = ULInterest x Ts 公式 (6) 


其 中 ,Tu 则 是 学 术 资 源 的 主题 概率 分 布 , ULInter 
est 表示 用 户 对 第 i 个 主题 的 兴趣 度 , 则 T,， 表示 用 户 
的 兴趣 主题 分 布 。 

3.2.3 引文 分 布 令 1di,d,,d;,…,d;1 表示 某 用 户 在 一 
段 时 间 内 阅读 的 某 种 学 术 资 源 的 集合 ,建立 引文 关系 图 ， 
则 用 户 的 引文 集合 用 C, = (Cu ,Co ,Ce，…Cu) 表 示 。 


4.1 相似 度 匹 配 

通过 对 学 术 资 源 文 本 特征 进行 提取 ,从 特征 词 . 主 
题词 .引文 三 个 维度 建立 学 术 资 源 模型 M, = | K,,T,， 
Ci} ,并 结合 用 户 兴 趣 度量 ,在 学 术 资源 模型 的 基础 上 
建立 用 户 兴 趣 模型 M, = | K,,T,,C,|。 

使 用 Jaccard 计算 用 户 特征 词 偏 Ku 与 学 术 资 源 特 
征 词 分 布 Kd 的 相似 度 ,如 公式 (7) 所 示 : 


I 


= 
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毕 强 , 许 胸 程 , 等. 基于 用 户 兴 趣 度 量 的 知识 发 现 服务 精准 推荐 [本 . 图 书 情报 工作 ,2019,63(3):21 -29. 


RR 4 式 ( 
使 用 余弦 相似 度 算法 计算 用 户主 题 偏好 Tu 与 学 
术 资 源 主题 分 布 Td 的 相似 度 , 如 公式 (8) 所 示 : 
i 公式 (8) 

根据 引文 结构 图 ,运用 Sim Rank 算法 ,计算 引文 
结构 相似 度 , Sim Rank 递归 定义 相似 度 ,常数 ce 
(0,1) 为 阻尼 因子 ,初始 赋值 如 下 : 

simo(Cuiy Ca) =1,(iC, = C1) 

ee =0,(ifC, C1) 

如 果 Cu 天 Cu 


sim(i,j) = 


sim(T,,T,) = 


ssim(KJK) +m ssim(T TI) +1 # sim( C, ,CI) 


心 上 有 
SLDI +1 ( Cu 》 Cs ) I1( CI Cu ) | 人 c 人 cy 8 


(CC 公式 (9) 
如 果 C,, = Cs 5 siml (CuyCu) =1 
其 中 1(C) 表 示 指 向 C 的 临 接点 集合 ,如 果 工 Cu) 
或 ICu) 为 空 , 则 sm = (Ci,Cs)=0。 

公式 (8) 表示 引文 结构 图 中 顶点 由 和 dj 之 间 的 
引文 结构 相似 度 ,调用 公式 (8 ) 递 归 1 次 ,直到 值 收 
敛 ,最 后 的 收敛 值 即 为 学 术 资 源 Cs 和 Cu 的 引文 结构 
相似 度 。 

定义 用 户 的 兴趣 值 UID 为 用 户 兴趣 模型 Mu 和 
Md 学术 资源 模型 的 相似 度 , 计 算 如 公式 (10) 所 示 : 


UID = sim(M,,M,) = 


< 


其 中 mn +Dm +Ir =1, 具 体 权 重 根据 实验 训练 分 配 。 
将 四 户 兴趣 值 UID 最 高 的 TOP-N 推荐 给 用 户 。 

4《D 推荐 算法 流程 

SS 如 图 2 所 示 , 本文 提 出 的 精准 推荐 算法 具体 流程 
如 下: 中 通过 网 络 息 虫 工具 获取 学 术 资 源 ;@ 提 取 学 术 


资源 的 信息 (资源 也 .标题 ,摘要 .关键 词 .引文 等 ) ,并 
看 0 引文 结构 网 络 图 ;@ 对 提取 的 学 术 资源 的 信息 进 
行 纠 处 理 (分 词 .去 停 用 词 等 );@ 计 算 每 条 学 术 资 源 


Web 日 志 


知识 发 现 系 统 


5 实验 


5.1 数据 采集 及 处 理 
本 实验 的 数据 源 来 源 于 中 国学 术 期 刊 ( 网 络 版 ) 
CAJ-N 数据 库 ,选择 图 书 情报 与 数字 图 书馆 专题 领域 
中 文 期 刊 (55 )2007 -2018 年 的 论文 作为 实验 数据 , 吻 
除 专题 序 .会 议 通知 ` 不 完整 论文 等 ,总 共 获 取 有 效 论 
文 10 227 篇 , 疏 取 论文 的 标题 .摘要 ,关键 词 引文。 在 
进行 分 词 前 将 实验 的 论文 的 关键 词 《 图 书馆 学 情报 学 
大 辞典 》 和 《汉语 主题 词 表 》 作 为 分 词 词典 导 人 中 国 科 
学 院 NLPIR 汉语 分 词 系统 ,并 建立 同义词 表 和 停 用 词 
表 , 以 改进 分 词 效 果 。 对 学 术 资 源 的 标题 .摘要 关键 


一 公式 (10) 
MI +r, 十 T3 


的 特征 词 分 布 .LDA 主题 分 布 以 及 引文 相似 度 ,构建 学 


术 资 源 模型 ;@ 基 于 Web 日 志 记 录用 户 行为 (浏览 时 
间 、 下 载 、. 转 发 收藏 等 ) ,计算 用 户 浏览 过 的 学 术 资 源 
的 兴趣 度 ;(@ 基 于 用 户 兴趣 度 和 学 术 资 源 模型 ,构建 用 
户 兴趣 模型 ;CD 计算 用 户 兴趣 模型 与 学 术 资 源 模型 相 
似 度 ,得 到 用 户 对 每 条 学 术 资 源 兴 趣 值 ” ;@ 将 兴趣 
值 最 高 的 TOP-N 学 术 资 源 推 荐 给 用 户 。 


户 兴 趣 值 


词 进行 分 词 处 理 ,并 去 停 用 词 。 随 后 对 特征 词 进行 词 
频 统计 ,计算 特征 词 的 TF-IDF 值 ,筛选 出 TF-IDF 值 排 
名 前 5 的 名 词 或 动词 作为 特征 词 ,将 文本 向 量化 ,表示 
为 文档 - 特征 词 矩 阵 , 从 而 构建 出 学 术 资源 的 特征 词 
分 布 模型 。 在 LDA 建 模 过 程 中 ,利用 MCMC 方法 中 的 
Gibbs 采样 法 进行 参数 估计 ,其 中 主题 数 K=50 ,设置 
文档 - 主题 超 参 数 a =0. 2 , 主题 - 词 项 分 布 的 参数 B 
=0. 01, Gibbs 采样 迭代 次 数 设 置 为 1 000 次 。 通 过 
LDA -Gibbs 模型 训练 计算 ,我们 得 到 10 227 篇 文献 的 
文档 -主题 分 布 和 〖 个 主题 的 词 项 分 布 ,部 分 主题 词 
及 关键 词 分 布 如 表 1 所 示 : 
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表 1 部 分 主题 词 和 关键 词 分 布 


用 户 研 究 信息 服务 资源 组 织 知识 管理 评价 研究 资源 共享 知识 产权 企业 情报 
用 户 服务 数据 和 9 书 评价 建设 知识 企业 
需求 信息 系统 知识 管理 标准 资源 情报 竞争 
圭 息 个 性 化 检索 图 书馆 体系 如 书馆 保护 情报 
系统 用 户 语义 服务 站 标 享 知识 产权 分 析 
交互 数字 模型 组 织 评估 同色 科学 战略 
设计 数字 图 书馆 本 体 信息 模型 高 校 研究 决策 
调查 模式 推荐 理论 质量 文献 网 站 创新 
因素 需求 元 数据 创新 信息 联盟 版 权 产业 
模型 咨询 技术 策略 绩效 服务 科技 环境 
数字 图 书馆 读者 结构 机 制 民 务 共 建 软件 技术 
行为 方式 关联 企业 维度 机 制 法 律 研究 
问卷 智能 资源 能 力 可 用 性 平台 制度 市 场 
二 界面 E 动 用 户 体系 理论 馆藏 中 国 管理 
CD 感知 质量 模块 资源 规范 模式 利益 智库 
于 情境 推送 算法 社区 风险 合作 许可 风险 


@ 利 用 UCINET 软件 ,构建 实验 论文 的 引文 网 络 如 
上 所 示 。 其 中 ,节点 表示 科技 文献 ,节点 间 连 线 的 方 
明了 文献 间 的 引用 与 被 引用 关系 ,通过 引证 关系 

摇 注 文献 之 间 的 关联 ,通过 SimRank 算法 计算 顶点 的 

相似 度 。 


GN 


> 


chinaX 


图 3 引文 网 络 图 


5.2 实验 设置 

为 验证 所 提出 的 精准 推荐 算法 的 准确 性 ,本 研究 
邀请 30 位 图 情 专 业 的 学 生 作 为 实验 对 象 ,每 位 用 户 根 
据 自 己 的 兴趣 或 者 任务 ,在 图 书 情报 领域 目录 下 进行 
至 少 20 次 检索 行为 ,以 保证 获取 充分 的 用 户 行 为 数 
据 。 用 户 的 浏览 时 间 检索 .收藏 、 下载、 转发,. 拖 动 滚 
动 条 、 翻 页 等 多 种 行为 数据 通过 舰 入 JavaSeript 代码 进 
行 获取 。 实 验 过 程 中 ,将 整个 用 户 行为 数据 集 分 为 两 
部 分 ,80% 作为 训练 集 ,以 产生 用 户 兴趣 模型 ,保留 
20% 作为 测试 集 用 于 验证 算法 推荐 效果 。 用 户 兴趣 模 
型 构建 中 结合 已 构建 好 的 资源 内 容 模型 ,通过 本 文 提 
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出 的 算法 计算 每 位 实验 对 象 的 UID 兴趣 值 ,其 中 设置 
=0.3,r, =0.4,z =0.2, 分 别 将 用 户 兴 趣 值 最 高 的 
TOP -5\TOP -10\TOP - 15\TOP20 的 资源 推荐 给 用 
户 , 共 推荐 10 次 ,每 次 推荐 后 用 户 对 自己 感 兴趣 的 资 


源 进行 访问 。 
5.3 结果 评价 
5.3.1 推荐 效果 评价 指标 ”为 评测 构建 的 模型 的 推 


存 效 果 , 本 文选 取 了 准确 率 (precision) 、 召 回 率 (re- 
call) F 值 三 个 评价 指标 对 推荐 结果 进行 评估 。 计 算 
如 公式 (10) 所 示 : 


公式 (10) 


其 中 ,A 表示 推荐 的 感 兴趣 的 资源 数量 ,B 表示 推 
荐 的 不 感 兴趣 的 资源 数量 ,C 表示 未 推荐 的 感 兴趣 的 
5.3.2 对比 实验 调试 ”本文 实验 选取 基于 内 容 (LDA 
主题 模型 ) 的 推荐 算法 和 基于 用 户 的 协同 过 滤 推 荐 算 
法 进行 对 比 。 在 对 比 实 验 中 ,利用 LDA 主题 模型 进行 
建 模 时 ,需要 设 定 主题 个 数 K 的 大 小 , 表 2 显示 当 给 每 
个 用 户 推荐 学 术 资 源 数 为 20 时 ,不 同 的 K 值 对 准确 
率 、 召 回 率 和 下 值 的 影响 ,可 以 看 出 K 为 20 的 时 候 是 
最 佳 值 。 
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表 2 不 同 的 主题 个 数 对 应 的 准确 率 、 


召回 率 及 
So 
tD 


召回 率 和 下 值 
主题 个 数 10 1 20 25 30 
召回 率 0.125 0.187 0.246 0.174 0.136 
准确 率 0.386 0.405 0.427 而 352 0.291 
F 值 0.189 0.256 0.312 0.233 0.185 


基于 用 户 的 协同 过 滤 算 法 进行 推荐 时 ,设置 的 最 
近邻 居 的 个 数 不 同 ,推荐 效果 会 有 所 差异 。 表 3 显示 
当 给 用 户 推荐 的 学 术 资 源 数 为 20 时 ,不 同 最 近邻 居 个 
数值 对 准确 率 、 召 回 率 和 下 值 的 影响 ,可 以 看 出 最 近 
邻居 个 数 为 30 的 时 候 推荐 效果 最 佳 。 

表 3 不 同 的 最 近邻 居 个 数 下 对 应 的 准确 率 、 


召回 率 和 下 值 
最 近 3 居 数 10 20 30 40 50 
队列 率 0.349 0.453 0.526 0.427 0.324 
区 坟 0. 193 0.221 0.27 0.209 0. 198 
€ BE 0.249 0.297 0.357 0.281 0.246 


5@ 结果 对 比 ” 根 据 对 比 实验 的 调试 结果 ,设置 主 
题 优 数 为 20 .最 近邻 居 数 为 30 时 ,基于 内 容 的 推荐 算 
法 各 基于 用 户 的 协同 过 滤 算法 的 推荐 效果 最 好 。 在 该 
实 绚 条 件 下 分 别 计算 三 种 算法 不 同 推荐 个 数 下 的 准确 


率 S 旭 回 率 和 下 值 以 及 实验 的 平均 准确 度 (precision)， 
宽 验 结果 如 图 4 一 图 7 所 示 。 
(Qos 
08 
Co 
名 06 
[= 
属 0.5 
搂 
殷 04 
3 一 # 一 基于 内 容 的 推荐 
看 一 各 一 基于 协同 过 小 的 推荐 
一 让 一 基于 用 户 兴 趣 的 推荐 
0.1 
0 
了 10 16 20 圣 荐 个 数 


4 不 同 推荐 个 数 下 准确 率 比较 (P 值 ) 


实验 结果 显示 , 当 推 荐 个 数 从 5 依次 上 升 到 20 
时 ,各 种 方法 的 准确 率 依次 降低 ,召回 率 和 下 -measure 
值 依次 上 升 。 当 推荐 个 数 相同 时 ,本 文 提 出 的 基于 用 
户 兴趣 度量 的 推荐 算法 的 准确 率 和 FF 值 都 是 最 高 的 ， 
其 推荐 效果 最 好 ,其 次 是 协同 过 滤 算 法 ,最 后 是 基于 内 
容 的 推荐 算法 。 综 合 整 个 实验 ,基于 用 户 兴 趣 度量 包 
协同 过 滤 算 法 的 平均 准确 度 比 基于 协同 过 滤 算 法 的 推 


-oe 基于 内 容 的 推荐 
于 协同 过 滤 的 推荐 
户 兴趣 的 推荐 


5 10 15 20 任 荐 个 数 


不 同 推荐 个 数 下 召回 率 比较 (R 值 ) 


F-MEASURE 值 
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图 6 


基于 内 容 的 推荐 ”基于 协同 过 小 的 推荐 ”基于 用 
图 7 平均 推荐 准确 度 
荐 准 确 度 提升 14% , 比 基 于 内 容 的 推荐 算法 的 推荐 准 
确 度 提升 23% 。 由 此 可 见 ,考虑 了 用 户 行为 和 引文 关 
联 , 使 得 本 文 提出 的 算法 更 能 预测 用 户 兴 趣 ,其 推荐 效 
果 也 更 好 。 


知识 发 现 系统 以 其 丰富 的 资源 数据 和 用 户 数据 为 
精准 推荐 服务 提供 了 数据 基础 。 通 过 对 数据 资源 进行 
碎片 化 处 理 \ 细 粒度 挖掘 和 分 析 , 发 现 系 统 可 以 深层 次 
呈现 资源 的 内 容 特征 ,揭示 其 语义 关系 ,建立 引文 关 


户 兴趣 的 推荐 
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联 ,实现 资源 的 深度 聚合 ,为 用 户 发 现 资源 间 的 隐 含 联 
系 ,揭示 新 的 知识 模式 ,提供 精细 化 的 知识 发 现 服务 。 
随 着 用 户 需求 的 碎片 化 ,精细 化 和 个 性 化 ,发 现 系 统 需 
要 充分 利用 用 户 行为 数据 ,度量 用 户 兴趣 .了 解 用 户 需 
求 , 为 用 户 提供 精准 的 知识 推荐 服务 ,提升 用 户 交互 体 
验 ,满足 用 户 知识 需求 ,促进 知识 价值 的 倍增 。 精 准 扒 
荐 是 增强 数字 图 书馆 知识 发 现 服务 能 力 的 重要 功能 ， 
为 数字 图 书馆 知识 发 现 服务 带 来 了 创新 生长 点 。 本 文 
从 用 户 兴趣 的 角度 出 发 ,通过 从 特征 词 . 主 题词 和 引文 
三 个 维度 提取 资源 内 容 特征 ,建立 学 术 资 源 模型 ,并 通 
过 对 用 户 兴趣 的 度量 ,构建 用 户 兴趣 模型 ,运用 相似 性 
算法 对 知识 发 现 服务 的 精准 推荐 进行 优化 ,再 通过 实 
证 检验 算法 的 可 行 性 ,与 传统 基于 内 容 推荐 算法 和 基 
于 惫 同 过 滤 的 推荐 算法 进行 对 比 。 本 文 提出 的 推荐 算 
涛 和 净 以 下 三 方面 优势 :0 考虑 引文 关联 ,更 加 科学 地 揭 
东沙 术 资 源 闻 的 内 在 联系 。@ 引 入 了 用 户 行为 集合 ， 
对 王 户 的 兴趣 偏好 程度 进行 分 析 , 推 荐 结果 更 加 准确 、 
观 。@ 当 用 户 兴趣 发 生 改变 时 ,推荐 算法 可 以 通过 
所用 户 近期 兴趣 的 改变 而 推荐 更 为 适合 的 信息 。 本 
遂 风 推荐 算法 可 以 实时 把 握 用 户 兴趣 ,为 用 户 进行 精 
准 访 着, 提升 发 现 系统 知识 服务 能 力 ,改进 用 户 的 使 用 
佐 脸 。 本 文 也 存在 一 些 不 足 之 处 ,如 算法 步骤 繁琐 , 计 
算 苇 较 大 ,实验 样本 和 时 间 存在 局 限 ,实验 过 程 中 部 分 
下 著 需要 人 工控 制 , 带 有 一 定 的 主观 性 等 。 因 此 在 下 
一 嘴 研 究 中 ,笔者 将 进一步 提升 算法 性 能 ,简化 算法 步 
又 2 委 升 算法 的 适用 性 ,增强 推荐 结果 的 准确 性 。 

[ 1 ] 毕 强 , 刘 健 . 基于 领域 本 体 的 数字 文献 资源 聚合 及 服务 推荐 方 
法 研究 [ 相 . 情报 学 报 ,2017 ,36(5 ) :452 - 460. 

[ 2] WALTERS W H. Google Scholar coverage of a multidisciplinary 


field[ J]. Information processing & management, 2007, 43 (4): 
1121 -1132. 

[3] YANG S Q, WAGNER K. Evaluating and comparing discovery 
tools: how close are we towards next generation catalog? [J]. Li- 
brary hi tech, 2010, 28(4) :690 -709. 

[ 4] MICHAEL G. The evaluation of discovery services at Lynchburg 
College: 2009 - 2010 [J]. College & undergraduate libraries, 
2012, 19(2 -4) :387 -397. 

[ 5 ] 秦 红 . 普 适 计算 环境 中 的 数字 资源 感知 服务 框架 探讨 []. 图 

书 情报 工作 ,2014 ,58(5) :13 - 16 ,21. 

[6 ] 张 钧 . 基于 用 户 画 像 的 图 书馆 知识 发 现 服务 研究 [ 相 . 图 书 与 
情报 ,2017(6) :60 -63. 


28 


[7] GUANP, WANG Y F. Personalized scientific literature recommen- 
dation based on user’ s research interest[ C |]// International con- 
ference on natural computation, Fuzzy systems and knowledge dis- 
covery. Changsha:IEEE, 2016:1273 - 1277. 

[ 8 ] RICCIF, ROKACH L, SHAPIRA B, et al. Recommender systems 
handbook[ M]. New York:Springer, 2011. 

[9 


[i 


RAZMERITA L. An ontology -based framework for modeling user 
behavior-a case study in knowledge management[ J]. IEEE trans- 
actions on systems, man, and cybernetics - part A: systems and 
humans, 2011 ,41 (4) :772 -783. 

[10] 李 学 明 , 李 海 瑞 , 薛 亮 ,等 . 基于 信息 增益 与 信息 信 的 TFIDF 算 
法 [中 .计算 机 工程 ,2012 ,38(8) :37 -40. 

[11] 王 振 振 , 何 明 , 杜 永 萍 . 基于 LDA 主题 模型 的 文本 相似 度 计算 
[J]. 计算 机 科学 ,2013 ,40(12 ) :229 -232. 

[12] 王 传 清 , 毕 强 . 超 网 络 视 域 下 的 数字 资源 深度 聚合 研究 [J]. 
情报 学 报 ,2015 (1) :4 - 13. 

[13] 刘 洪 伟 , 高 鸿 铭 , 陈 丽 , 等 . 基于 用 户 浏 览 行为 的 兴趣 识别 管理 
模型 [站 .数据 分 析 与 知识 发 现 ,2018(2) :74 -85. 

[14] 曾子 明 , 金 鹏 . 基于 用 户 兴 趣 变化 的 数字 图 书馆 知识 推荐 服务 
研究 [中 .图 书馆 论坛 ,2016 ,36(1) :94 -99. 

[15] KRISHNAMOORTHY R, SUNEETHA K R. User interest estima- 


tion using behavior monitoring measure [J ]. Transplantation, 
2013, 78(2 ) :651 - 652. 

[16] CLAYPOOL M, BROWN D, LE P, et al. Inferring user interest 
[J]. IEEE intemet computing, 2001, 5(6) :32 -39. 

[17] ZHENG L, CUIS, YUE D, et al. User interest modeling based on 
browsing behavior [ C ]// International conference on advanced 


computer theory and engineering. Chengdu:IEEE, 2010:V5 -455 


— V5 -458. 
[18] 张 海 鹏 .基于 Web 日 志 挖掘 的 个 性 化 推荐 研究 LD]. 重庆 : 重 
庆 大 学 ,2007. 


[19] JEH G, WIDOM J. SimRank : a measure of structural -context simi- 
larity[ C1]// Eighth ACM SIGKDD international conference on 
knowledge discovery and data mining. Edmonton: ACM, 2002 :538 
-543. 

[20] 恬 丽 玲 , 刘 柏 渍 , 王 洋洋 . 跨 类 型 的 学 术 资源 优质 推荐 算法 研究 
[J]. 情报 学 报 ,2017 ,36(7) :715 -722. 

作者 贡献 说 明 : 

丁 梦 晓 :设计 研究 方案 ,撰写 论文 ; 

毕 强 :提出 研究 思路 ,修改 论文 ; 

许 鹏 程 :数据 采集 及 实验 ; 

李 洁 :完善 研究 思路 ,修改 论文 ; 


年 冬 梅 :完善 研究 思路 ,修改 论文 。 


SA 
NINAaA IV 


丁 梦 晓 , 华强 , 许 鹏 程 ， 等 . 基于 用 户 兴 趣 度 量 的 知识 发 现 服务 精准 推荐 [J]. 图 书 情报 工作 ,2019 ,63(3) :21 -29. 


Research on Precise Recommendation of Knowledge Discovery Services 
Based on Users Interests 
Ding Mengxiao' Bi Qiang Xu Pengcheng Li Jie Mu Dongmei 
! School of Management, Jilin University, Changchun 130022 
“School of Public Health, Jilin University, Changchun 130021 
Abstract: [Purpose/significance | This paper proposes a recommendation algorithm based on user interest metrics 
and content analysis for the current issues of low personalization and poor recommendation in knowledge discovery serv- 
ices. [Method/process | Through characteristic word distribution, LDA topic distribution and citation association, this 
paper constructs the academic resource model. Through the measurement of user behavior (browsing time, downloading, 
forwarding, collecting, etc. ) ，the user’ s interest in browsing academic resources can be calculated, and the user interest 
model is constructed. Matching the user interest model with the academic resource model and calculating its similarity ,the 
user s interest value for each academic resource can be obtained. Finally, the TOP-N academic resources with the highest 
inFéiest value can be recommended to the user. [ Result/conclusion | The paper tests the effectiveness of the algorithm 
an 于 the accuracy of the recommendation through experiments. From the experimental results, we can show that the recom- 
midation algorithm can predict the user’ s interest better and the recommendation effect is significant, simultaneously 
paing ideas for precise recommendation of discovery services. 


CIKeywords: user interest content analysis discovery service precise recommendation 
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1 稿件 的 主题 应 与 知识 相关 ,探讨 有 关 知识 管理 、 知 识 服务 ,知识 创新 等 相关 问题 。 文 章 可 侧重 于 理论 ,也 可 
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重 于 应 用 技术 方法 模型 .最 佳 实践 等 。 


2. 文章 须 言 之 有 物 ,理论 联系 实际 ,研究 目的 明确 ,研究 方法 得 当 , 有 自己 的 学 术 见 解 ,对 理论 或 实践 具有 参 
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) ” 考 .借鉴 或 指导 作用 。 

3. 所 有 来 稿 均 须 经 过 论文 的 相似 度 检测 ,提交 同行 专家 评议 ,并 经 过 编辑 部 的 初审 、 复 审 和 终审 
; 

; 

; 

; 

; 

i 
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4. 文 章 篇 幅 不 限 , 但 一 般 以 4 000 -20 000 字 为 宜 。 

5. 来稿 将 在 1 个 月 内 告知 录用 与 否 。 

6. 稿件 主要 通过 网 络 发 表 , 如 我 刊 的 网 站 (www. kmf. ac. cn) 和 我 刊 授权 的 数据 库 。 同 时 ,实行 开放 获取 、 按 篇 
出 版 和 按 需 印刷 。 

请 登录 www. kmf. ac. cn 投稿 。 


联系 电话 :010 - 82626611 - 6638 联系 人 : 刘 远 颖 


